Можно разделить метрики близости текстов на два типа: лексические и семантические.
🔹Лексические — Сходство Жаккара (Jaccard similarity) Это довольно простая метрика. Работает так: берутся две последовательности A и B, далее находится число общих элементов в них и делится на количество элементов обеих последовательностей.
🔹Семантические — Косинусное сходство (cosine similarity) Измеряет косинус угла между двумя векторами, представляющими тексты в векторном пространстве (часто используется TF-IDF векторизация). — Евклидово расстояние (euclidean distance) Находится кратчайшая прямая между двумя точками в евклидовом пространстве. Сначала также необходима векторизация.
Можно разделить метрики близости текстов на два типа: лексические и семантические.
🔹Лексические — Сходство Жаккара (Jaccard similarity) Это довольно простая метрика. Работает так: берутся две последовательности A и B, далее находится число общих элементов в них и делится на количество элементов обеих последовательностей.
🔹Семантические — Косинусное сходство (cosine similarity) Измеряет косинус угла между двумя векторами, представляющими тексты в векторном пространстве (часто используется TF-IDF векторизация). — Евклидово расстояние (euclidean distance) Находится кратчайшая прямая между двумя точками в евклидовом пространстве. Сначала также необходима векторизация.
#NLP
BY Библиотека собеса по Data Science | вопросы с собеседований
Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283
At a time when the Indian stock market is peaking and has rallied immensely compared to global markets, there are companies that have not performed in the last 10 years. These are definitely a minor portion of the market considering there are hundreds of stocks that have turned multibagger since 2020. What went wrong with these stocks? Reasons vary from corporate governance, sectoral weakness, company specific and so on. But the more important question is, are these stocks worth buying?
The messaging service and social-media platform owes creditors roughly $700 million by the end of April, according to people briefed on the company’s plans and loan documents viewed by The Wall Street Journal. At the same time, Telegram Group Inc. must cover rising equipment and bandwidth expenses because of its rapid growth, despite going years without attempting to generate revenue.
Библиотека собеса по Data Science | вопросы с собеседований from cn